Luca Vetromile - Project Manager: Il Sapere Minimo in Informatica

CAPITOLO VIII° - Strumenti e servizi dei motori

Per incoraggiare i webmaster a creare siti e contenuti accessibili, i principali motori di ricerca hanno costruito servizi di supporto per facilitare la diffusione e la verifica delle linee guida da loro fornite.

Sebbene ogni servizio abbia un grado di utilità variabile per i search marketers, é utile conoscerli tutti.

Questi strumenti forniscono dati e opportunità per scambiare informazioni con i motori che non si possono ottenere in altro modo.

Le sezioni seguenti illustrano gli elementi comuni di interazione che ciascun motore di ricerca supporta e ne spiegano l'utilità. La spiegazione dettagliata di ciascuno di questi elementi potrebbe giustificare un intero articolo, ma ai fini di questa guida, vengono discussi solo gli elementi più importanti.

Protocolli comuni dei motori di ricerca

1. Le sitemap

Le sitemap sono uno strumento che permette di fornire indicazioni ai motori sul modo in cui condurre il crawling sul proprio sito. Potete leggere tutti i dettagli del protocollo all'indirizzo Sitemaps.org.

Le sitemaps si dividono in tre tipologie:

XML: Extensible Markup Languade (Formato raccomandato)

È il formato di sitemaps maggiormente accettato. E' estremamente facile da analizzare per i motori di ricerca e può essere creato da tutta una serie di generatori di sitemap.

File relativamete grossi. Dato che il formato XML richiede un tag di apertura e un tag di chiusura attorno ad ogni elemento, le dimensione dei file può diventare molto grossa.

RSS: Really Simple Syndication or Rich Site Summary

Facile da conservare. Le sitemap RSS possono essere facilmente costruite per aggiornarsi automaticamente ogni qualvolta vengano creati nuovi contenuti.

Più difficile da gestire. Nonostante l'RSS sia un dialetto dell'XML, é notevolmente più difficile da gestire per via delle sue caratteristiche di aggiornamento.

Txt: File di testo

Estremamente facili. Il formato di testo é costituito da una URL per riga fino ad un massimo di 50.000 righe.

Non dà la possibilità di aggiungere meta data alle pagine.

2. Robots Txt

Il file robots.txt (un prodotto del Robots Exclusion Protocol) deve essere inserito nella directory root (per es. www.google.com/robots.txt).

Il file ha la funzione di guidare l'accesso dei visitatori automatizzati (i web robots).

Con l'utilizzo del robots.txt, i webmaster possono indicare quali aree del sito non vogliono che siano crawlate dai bot, cosi come la localizzazione dei file di sitemap (discusso sopra) e del parametro crawl-delay.

Sono disponibili le seguenti istruzioni:

Disallow: Impedisce ai robot aderenti al protocollo di accedere a specifiche pagine o cartelle.
Sitemap: Indica la localizzazione della/e sitemap di un sito.
Crawl Delay: Indica la velocità (in milli secondi) alla quale un robot può effettuare il crawling del server.

Capitolo VIII° - Esempio di file robots.txt

Attenzone: E' molto importante sapere che non tutti i web robot rispettano il robots.txt.

Persone mal intenzionate (per es. coloro che raccolgono automaticamente indirizzi email sul web) costruiscono bot che non seguono questo protocollo e in casi estremi possono utilizzarlo per identificare per localizzare informazioni sensibili.

Per questa ragione, si suggerisce di non indicare nel robots.txt le sezioni private del sito.

Queste pagine possono utilizzare il tag meta robots (discusso successivamente) per evitare che i propri contenuti sensibili vengano indicizzati dai principali motori di ricerca.

Capitolo VIII° - Esempio di file meta robots

3. Meta Robots

Il tag meta robots fornisce un'istruzione ai motori a livello della singola pagina.

Il tag meta robots deve essere incluso nella sezione head del documento HTML.

Nell'esempio qui sopra, "ROBOT NAME" é uno user-agent di uno specifico web robot (per es. Googlebot) o un asterisco per identificare tutti i robot, e "ARGUMENTS" é uno degli argomenti illustrati nel diagramma di destra.

Capitolo VIII° - Esempio di file rel noffolow

REL="NOFOLLOW"

L'attributo rel=nofollow fornisce ai bot dei motori di ricerca un'istruzione su come comportarsi con i singoli link.

Nonostante i motori di ricerca sostengano di non seguire i link con l'attributo nofollow, test hanno dimostrato come questi link sono attualmente seguiti per scoprire nuove pagine.

Questi link passano sicuramente meno link juice (nella maggior parte dei casi nessuno) delle loro controparti senza attributo nofollow e per questo motivo sono ancora suggeriti a fini SEO.

Nell'esempio qui sopra, il valore del link non verrebbe passato a example.com dal momento che é stato aggiunto l'attributo rel=nofollow.

GOOGLE STRUMENTI PER I WEBMASTER

Configurazione sito

Destinazione geografica – Se un sito punta ad utenti di una destinazione geografica specifica, i webmaster possono fornire a Google le informazioni per aiutarlo a determinare come quel sito dovrà apparire nei risultati delle ricerche di quel Paese, oltre a migliorare i risultati di Google per ricerche geografiche precise.
Dominio preferito – Il dominio preferito é il dominio che un webmaster vuole che sia usato per indicizzare le pagine del suo sito. Se un webmaster specifica un dominio preferito del tipo http://www.esempio.it e Google scova un link a quel sito nella forma http://esempio.it, Google tratterà quel link come se puntasse a http://www.esempio.it
Ricerca di immagini – Se un webmaster sceglie di iscriversi alla ricerca avanzata immagini Google può usare strumenti quali il Google Image Labeler che permette di assegnare etichette alle immagini presenti sul proprio sito per migliorare l'indicizzazione e la qualità di ricerca su queste immagini.
Velocità di scansione (crawl rate) – TIl crawl rate impatta la velocità delle richieste effettuate dal Googlebot durante la propria attività di scansione (Crawling). Non ha impatti sulla frequenza con la quale il Googlebot esegue la scansione di un sito. Google determina la velocità di scansione consigliata sulla base del numero di pagine presenti sul sito.

Diagnostica

Scansione Web – La scansione web riporta i problemi riscontrati da Googlebot durante la scanione di uno specifico sito. In particolar modo, rileva gli errori presenti nella/e sitemap, gli errori HTTP, le URL nofollowed, le URL soggette a restrizioni da robots.tt e le URL che vanno in time out.
Scansione su dispositivi mobili – Identifica problemi con la scansione delle versioni dei siti per dispositivi mobili.
Analisi dei contenuti – questa analisi identifica tutti gli elementi HTML non ottimizzati per i motori di ricerca. Nello specifico, fornisce una lista dei problemi con tag title , meta descriptions e contenuti non indicizzabili.

Statistiche

Queste statistiche sono una finestra su come Google vede un determinato sito. In particolare, identifica le principali parole utilizzate per le ricerche, le statistiche di scansione, le statistiche dei registrazione, "cosa vede il bot di Google" e le statistiche di indicizzazione.

Dati sui Link

Questa sezione fornisce infomazioni sui link. In particolare, individua, link che rimandano al proprio sito, link interni e sitelink. I sitelink sono link alla pagine interne di un sito che appaiono solo in alcuni siti e per ricerche specifiche.

Sitemap

Questa é l'interfaccia per inviare e gestire sitemap direttamente a Google.

Per accedre alla sezione Google Strumenti per il Webmaster clicca qui

YAHOO! SITE EXPLORER

Statistiche – Queste statiche sono molto semplici e includono dati quali i tag title della homepage e il numero di pagine indicizzate per un determinato sito.
Feed – Questa interfaccia dà la possibilità di inviare direttamente i propri feed a Yahoo! per l'inclusione nel suo indice. Questo é particolarmente utile per siti con aggiornamenti frequenti del proprio blog.
Azioni – Questa interfaccia molto semplice permette ai webmaster di rimuovere URL dall'indice di Yahoo e di specificare URL dinamiche. Quest'ultima attività é particolarmente importante in quanto Yahoo! ha tradizionalmente avuto molte difficoltà a differenziare URL dinamiche.

Per accedre alla sezione Yahoo Site Explorer clicca qui

Bing Webmaster Center

Profilo – Questa interfaccia dà ai webmaster la possibilità di specificare la localizzazione della/e sitemap e un modulo per fornire i propri contatti in modo tale che Bing possa contattarli se incontra problemi con la scansione del loro sito.
Problemi di scansione – Questa utile sezione identifica gli errori sui codici di stato HTTP, i problemi derivanti dal robots.txt, URL lunghe e dinamiche, contenuti non supportati e, cosa ancora più importante, pagine infettate da malware.
Backlink – questa sezione permette ai webmaster di scoprire quali pagine (incluse le proprie) linkino ad un determinato sito.
Outbound Links – Similmente alla sezione precedente, questa interfaccia permette i webmaster di visualizzare tutte gli outbound link su una determinata pagina.
Keyword – Questa sezione permette ai webmaster di vedere quali pagine sono ritenute pertinenti per ricerche specifiche.
Sitemap – Questa é l' interfaccia per inviare e gestire la/e sitemap direttamente a Microsoft.

Per accedre alla sezione Bing Webmaster Center clicca qui

Capitolo IX°

Capitolo VII°